摘要。基因表达分类是生物信息学中的一项关键但具有挑战性的任务,这主要是由于高度数据的高维度和过度拟合的风险。为了弥合这一差距,我们提出了Bolimes,这是一种新型特征选择算法,旨在通过系统地重新发现特征子集来增强基因表达分类。与仅依赖统计排名或分类特定选择的常规方法不同,我们将Boruta的稳健性与石灰的可解释性相结合,从而确保只保留最相关和最相关的基因。Bolimes第一位使用Boruta通过比较每个特征与其持有的对应物进行比较,从而释放了非信息性基因,从而保留了有价值的信息。然后,它使用石灰根据其对分类器的局部重要性来对剩余基因进行排名。最后,迭代分类评估通过选择最大化预测精度的基因数来确定最佳特征子集。通过将详尽的特征选择与可解释性驱动的重新结合结合,我们的解决方案有效地平衡了维数的降低与高分类性能,从而为高维基因表达分析提供了强大的解决方案。
主要关键词
![arxiv:2502.13080v1 [cs.lg] 2025年2月18日PDF文件第1页](/bimg/b/b2a0c3d153637e5ae3ab49d7b65fb813a758c90a.webp)
![arxiv:2502.13080v1 [cs.lg] 2025年2月18日PDF文件第2页](/bimg/3/3984b1f1f749ea536f04e60e2a2e1bd738fa8a42.webp)
![arxiv:2502.13080v1 [cs.lg] 2025年2月18日PDF文件第3页](/bimg/3/33afbe20a746bdcd011e74185cc08ed58704aaf1.webp)
![arxiv:2502.13080v1 [cs.lg] 2025年2月18日PDF文件第4页](/bimg/c/c5b7c6790c1420c572258cbbbe54cfea22d2b27c.webp)
![arxiv:2502.13080v1 [cs.lg] 2025年2月18日PDF文件第5页](/bimg/f/f005da8778f733122724dd8ff9437afa795b1c90.webp)
